Text copied to clipboard!

Título

Text copied to clipboard!

Engenheiro de Confiabilidade de Site (SRE)

Descrição

Text copied to clipboard!
Estamos à procura de um Engenheiro de Confiabilidade de Site (SRE) altamente qualificado para se juntar à nossa equipe de tecnologia. Este profissional será responsável por garantir a estabilidade, escalabilidade e desempenho de nossos sistemas e serviços digitais. O SRE atuará como ponte entre desenvolvimento e operações, promovendo práticas de engenharia para melhorar a confiabilidade e eficiência dos sistemas em produção. O candidato ideal terá experiência com ambientes de produção em larga escala, automação de processos, monitoramento de sistemas e resposta a incidentes. Espera-se que o profissional colabore com equipes de desenvolvimento para implementar soluções resilientes, além de criar ferramentas e processos que reduzam o trabalho manual e aumentem a eficiência operacional. Entre as principais responsabilidades estão a criação e manutenção de pipelines de CI/CD, desenvolvimento de scripts de automação, configuração de alertas e dashboards de monitoramento, além de participar de análises pós-incidente para identificar causas raiz e propor melhorias. O SRE também será responsável por definir e acompanhar métricas de confiabilidade como SLOs, SLIs e SLAs. Além disso, o profissional deverá ter uma mentalidade proativa, buscando constantemente formas de melhorar a infraestrutura e os processos existentes. A capacidade de trabalhar em equipe, comunicar-se de forma clara e resolver problemas complexos sob pressão são habilidades essenciais para o sucesso nesta função. Se você é apaixonado por tecnologia, tem espírito colaborativo e deseja trabalhar em um ambiente dinâmico e inovador, esta é a oportunidade ideal para você.

Responsabilidades

Text copied to clipboard!
  • Garantir a disponibilidade e confiabilidade dos sistemas em produção
  • Desenvolver e manter pipelines de integração e entrega contínua (CI/CD)
  • Automatizar tarefas operacionais e processos repetitivos
  • Monitorar sistemas e configurar alertas proativos
  • Responder a incidentes e realizar análises pós-morte
  • Colaborar com equipes de desenvolvimento para melhorar a resiliência dos sistemas
  • Definir e acompanhar métricas como SLOs, SLIs e SLAs
  • Documentar processos e procedimentos operacionais
  • Participar de revisões de arquitetura e planejamento de capacidade
  • Implementar práticas de segurança e conformidade em ambientes de produção

Requisitos

Text copied to clipboard!
  • Formação superior em Ciência da Computação, Engenharia ou áreas relacionadas
  • Experiência com sistemas distribuídos e ambientes de produção em larga escala
  • Conhecimento em linguagens de script como Python, Bash ou Go
  • Familiaridade com ferramentas de automação como Ansible, Terraform ou Puppet
  • Experiência com plataformas de nuvem como AWS, GCP ou Azure
  • Conhecimento em containers e orquestração (Docker, Kubernetes)
  • Experiência com ferramentas de monitoramento como Prometheus, Grafana ou Datadog
  • Capacidade de resolver problemas complexos sob pressão
  • Boa comunicação e trabalho em equipe
  • Inglês técnico para leitura e escrita

Perguntas potenciais de entrevista

Text copied to clipboard!
  • Você possui experiência com ambientes de produção em nuvem?
  • Quais ferramentas de automação você já utilizou?
  • Como você lida com incidentes em produção?
  • Você já trabalhou com métricas como SLOs e SLIs?
  • Tem experiência com containers e Kubernetes?
  • Como você colabora com equipes de desenvolvimento?
  • Já participou de análises pós-incidente? Como foi sua contribuição?
  • Quais linguagens de script você domina?
  • Como você garante a segurança em ambientes de produção?
  • Você já implementou pipelines de CI/CD? Quais ferramentas utilizou?